1194 自動回復離線節點失敗。
解說
叢集具有離線節點,而且已確定其中一個候選節點符合離線節點的性質。叢集試圖將節點重新加到叢集,但失敗。叢集不再試圖自動將節點重新加到叢集。
如果節點的狀態資料不完整,則啟動後仍然會離線。如果節點曾經停電或發生硬體故障,導致未能完成將所有狀態資料寫入磁碟,則會發生這種情況。節點處於此狀態時會報告節點錯誤 578。
如果已試圖三次自動將符合的候選節點新增至叢集,但該節點在 24 小時內未回到線上,則叢集就不再自動試圖新增該節點,還會記載錯誤碼 1194「自動回復離線節點失敗」。
可能記載此錯誤事件的兩種情況如下:
- 節點故障,但未儲存其所有狀態資料。節點已重新啟動(可能在修復之後),但顯示節點錯誤 578,而且是可加入叢集的候選節點。叢集試圖將節點新增至叢集,但未成功。在 15 分鐘後,叢集第二次試圖將節點新增至叢集,但仍未成功。又過 15 分鐘後,叢集第三次試圖將節點新增至叢集,但仍未成功。又過 15 分鐘後,叢集記載錯誤碼 1194。在試圖將節點新增至叢集期間,節點從未變成線上。
- 節點故障,但未儲存其所有狀態資料。節點已重新啟動(可能在修復之後),但顯示節點錯誤 578,而且是可加入叢集的候選節點。叢集試圖將節點新增至叢集且成功,節點已變成線上。節點在 24 小時內再次故障,但未儲存其狀態資料。節點重新啟動,但顯示節點錯誤 578,而且是可加入叢集的候選節點。叢集再次試圖將節點新增至叢集且成功,節點已變成線上;但是,節點在 24 小時內再次故障。叢集第三次試圖將節點新增至叢集且成功,節點已變成線上;但是,節點在 24 小時內再次故障。又過 15 分鐘後,叢集記載錯誤碼 1194。
這些情況也可能同時出現。
附註:如果手動從叢集卸下節點,自動回復試圖計數會重設為零。
使用者回應
- 如果節點在叢集內連續超過 24 小時都在線上,請將錯誤標示為已修正,並移至修復驗證 MAP。
- 在事件日誌中尋找此節點名稱的事件,以查明這個節點的事件歷程。請注意,節點 ID 會變更,請比對 WWNN 和節點名稱。也請檢查服務記錄。請特別注意這三種事件的項目:1) 叢集遺漏節點(叢集錯誤 1195 事件 009052),2) 開始試圖自動回復離線節點(事件 980352),3) 節點已新增至叢集(事件 980349)。
- 從回復程序開始後,如果節點一直未新增至叢集,表示硬體可能有問題。節點的內部磁碟可能故障,導致無法將其軟體層次修改為符合叢集的軟體層次。如果您尚未決定問題的主要原因,您可以試圖從叢集手動卸下節點,再將節點重新加到叢集。在叢集試圖新增節點期間,請持續監視叢集內的節點狀態。附註:如果叢集的軟體版本不支援節點類型,該節點不會顯示為候選節點。因此,硬體不相容不是此錯誤的潛在主要原因。
- 如果節點新增至叢集,但在線上未超過 24 小時又再次故障,請調查故障的主要原因。如果事件日誌中沒有任何事件指出節點故障的原因,請收集傾出並聯絡 IBM 技術支援中心,以取得協助。
- 修正節點的問題後,您必須使用叢集主控台或指令行介面,手動從叢集卸下節點,再將節點新增至叢集。
- 將錯誤標示為已修正,並移至驗證 MAP。
可能的原因 - FRU 或其他:
無(雖然調查可能指出是硬體故障)。